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摘 要 : ” 随 着 大 数据 应 用 的 不 断 深入 ,大 规模 结构 化 、 非 结构 化 数据 带 来 的 异 构 数据 的 融合 管理 、 关 联 计 算 和 即 
席 查询 需求 日 益 突出 。 现 有 异 构 数据 融合 管理 技术 与 系统 存在 着 数据 模型 表示 能 力 弱 、 查 询 执行 实时 性 差 等 问题 。 
本 文 提 出 了 适用 于 结构 化 、 非 结构 化 数据 融合 管理 和 语义 计算 的 智能 属性 图 模型 ， 并 定义 了 相关 属性 操作 符 和 查 
询 语 法 。 ee PandaDB， 并 详细 介绍 了 PandaDB 的 总 体 架 构 、 存 储 机 制 、 查 
询 机 制 、 属 性 协 存 、AI 算法 调度 和 分 布 式 架构 。 测 试 实验 和 案例 证 明 , PandaDB 的 协 存 机 制 和 分 布 式 架构 具备 较 
好 的 性 能 加 速效 果 ， 并 可 应 用 在 关联 数据 发 布 、 个 人 相册 管理 、 学 术 图 谱 实体 消 歧 等 融合 数据 智能 管理 的 场景 。 
关键 词 : ”数据 管理 系统 ;融合 管理 ;数据 模型 ;数据 查询 ;人 工 智能 

中 图 法 分 类 号 : TP311 


PandaDB: An intelligent management system for heterogeneous data 


SHEN Zhi-Hong!, ZHAO Zi-Hao!?, WANG Hua-Jin!, LIU Zhong-Xin!, HU Chuan!?, ZHOU Yuan-Chun! 


‘(Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China) 
?(University of Chinese Academy of Sciences, Beijing 100049, China) 


Abstract: Due to the rapid development of big data applications, there is a increasing requirement of data fusion management, combined 
analysis and ad-hoc queries for large-scale structured / unstructured data. Existing heterogeneous data management technologies have some 
problems, such as weak data model representation ability and inefficient query execution. This paper proposes an intelligent property graph 
model suitable for structured and unstructured data fusion management and semantic computing, with some related property operators and 
query syntax. Based on this model, we implement a heterogeneous data fusion management system called PandaDB. This paper depicted the 
architecture, storage mechanism, query mechanism, property co-storage, AI algorithm scheduling and distributed architecture of PandaDB. 
Test experiments and cases show that the co-storage mechanism and distributed architecture of pandadb have good performance acceleration 
effects, and can be applied in some scenarios of fusion data intelligent management such as linked data publishing, personal photo album 


management, academic atlas entity disambiguation, and so on. 
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1 引言 


大 数据 时 代 ， 随 着 各 类 应 用 的 推广 使 用 ,数据 产生 速度 越 来 越 快 、 数 据 体 量 越 来 越 大 。 一 方面 ， 数据 采集 
技术 的 迅 See anil ante gener rie gape no os 
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= 
台 、 知 识 图 谱 等 数据 管理 /分 析 技 术 得 到 了 广泛 
口 


有 较 大 比重 。 有 研究 表明 ， 视 频 、 音 频 、 图 片 等 非 结 构 化 数据 


的 应 用 。 数 据 中 台 要 求 


识 图 谱 要 求 对 底 


合 管理 、 关 联 计 算 和 即席 查询 的 需求 。 
与 结构 化 数据 已 具备 完善 成 熟 的 数据 库 管 理 与 分 书 
理 和 分 析 具 有 较 大 的 难度 ， 有 具体 体现 为 : 
有 更 大 的 空间 ， 出 于 读 写 效率 考虑 ， 非 结构 化 数据 往往 单 儿 
化 数据 内 容 比 较 复杂 ， 传 统 查 询 技术 只 能 针对 元 数据 
Fis; 3) 交互 式 查 询 ， 传 统 的 RDBMS 模型 不 适合 对 结构 化 数据 和 非 结 构 化 数据 内 在 信息 ; 

K 


难度 大 ， 非 结构 
含 的 丰富 的 内 部 


实现 高 效 数 据 管 
占 


T 


5 
导数 据 进 行 关联 分 析 ， 并 支持 用 


两 方面 : 


行 统一 表示 ， 因 


进行 交互 式 查 询 ， 


系统 相 比 ,了 


此 在 传统 关系 型 数据 模型 下 ， 无 法 实现 对 


FE 结构 化 数 


非 结构 化 数据 内 在 信息 的 分 析 查 询 ， 需 要 从 模型 层面 出 发 ， 


和 Schema 表示 为 边缘 标记 图 ， 
构 化 数据 添加 Schema 的 方法 ， 不 能 实现 对 非 结构 化 数据 中 信息 的 自 1 


RIE. JER AE 


EAN ek oe OH 


数据 的 即时 交互 查询 。 近 年 来 有 学 者 提出 在 非 结构 化 数据 流 上 实施 抽 


了 三 元 组 的 抽 


另 一 方面 


T 


设计 相应 


5 据 高 达 85% 的 比例 中， 另 一 方面 ， 数 据 中 


被 管理 数据 能 够 同时 支持 多 种 应 用 ， 知 


均 提 出 了 对 结构 化 / 非 结构 化 数据 进行 融 


FE 结构 化 数据 由 于 其 结构 和 内 容 的 复杂 性 ， 
1) 管理 难度 大 ， 相 对 于 结构 化 数据 ， 非 结构 化 数据 
存在 于 文件 系统 ， 或 者 对 象 存储 系统 ; 2) 分 析 


进行 检索 ， 无 法 查询 非 结构 化 数据 所 蕴 


据 中 信息 的 交互 式 查 询 。 其 根本 原 


一 方面 在 于 ， 传 统 的 关系 模型 、 属 性 图 模型 不 能 有 效 揭示 和 表达 非 结 构 化 数据 的 内 在 信息 。 为 了 实现 对 


的 表达 和 查询 方法 。 有 学 者 提出 将 数据 


以 此 蔡 代 非 结构 化 数据 底层 类 型 约束 的 缺失 所。 但 该 方法 仅 提 出 一 种 为 非 结 


检索 。Li 等 人 提出 从 基本 属性 、 语 义 


居 等 四 个 角度 定义 非 结构 化 数据 申 ， 但 这 种 方法 依赖 于 预定 义 并 不 适用 于 非 结构 化 


取 ， 不 能 支持 对 非 结构 化 数据 内 部 信息 的 交互 式 查 询 ， 


取 RDF 三 元 组 的 方法 和 内， 该 方法 只 实现 
目 并 不 具备 数据 管理 系统 的 基本 能 力 。 


于 ， 传 统 的 数据 管理 方法 是 将 结构 化 数据 和 非 结 构 化 数据 分 开 存储 的 。 非 结构 化 数据 通常 存 


储 在 文件 系统 或 者 对 象 存储 系统 ， 并 将 其 路 径 存 储 在 关系 数据 库 中 ;或 者 将 非 结构 化 数据 在 数据 库 中 存储 为 


二 进 制 大 对 象 CBLOB, Binary Large OBject), 
这 两 种 方法 在 性 能 和 功能 上 都 不 令 人 满意 [1][5]。 针 对 


ai 
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居 的 时 候 ， 返 回 一 个 二 进 制 数 组 或 者 数据 流 。 
[此 问题 ， 研 究 人 员 提 出 了 一 系列 非 结 构 化 数据 管理 系 


统 BlI9I81， 这 些 系统 综合 考虑 了 非 结 构 化 数据 体积 大 、 结 构 复 杂 的 特点 ， 设 计 了 合适 的 存储 模型 ， 从 底层 存 


储 出 发 ， 一 定 程度 上 解决 了 非 结 构 化 数 拉 


昌 的 存储 和 管理 问题 ， 


数据 ， 不 能 提供 对 非 结 构 化 数据 内 部 信息 的 查询 能 


综 上 所 述 ， 


目前 结构 化 / 非 结构 化 数据 的 融合 管理 存在 如 下 难点 : 


但 其 提供 的 查询 服务 仅 基 于 文件 对 象 本 身 和 元 


。 ”传统 的 数据 模型 表示 能 力 弱 ， 无 法 实现 异 构 数 据 中 多 元 信息 的 统一 表示 : 非 结 构 化 数据 内 在 信息 属 


数据 模型 ， 实 现 对 异 构 数 据 内 在 多 元 信息 的 统一 表达 ; 
。 ”对 异 构 数据 进行 关联 分 析 的 实时 性 差 ， 无 法 支持 交互 式 查 询 : 系统 应 能 动态 地 响应 查询 请 求 。 当 前 
此 应 该 设计 合理 的 AI 算法 集成 机 制 ， 使 系统 支持 


非 结构 化 数据 信息 的 自动 抽取 依赖 于 AI 算法 。 因 


对 非 结 构 化 数据 信息 抽取 能 力 的 动态 扩展 ; 


为 实现 对 结构 化 / 非 结 构 化 数据 的 融合 管理 、 关 联 计算 和 即席 查询 ， 本 文 提出 
图 模型 在 属性 图 的 基础 增加 了 对 非 结构 化 数据 的 表达 能 力 ， 以 及 结构 化 和 非 结构 化 数据 之 间 


语法 。 智 能 属性 


的 互 操作 能 力 。 


本 文 在 第 2 节 给 出 了 属性 图 扩展 模型 和 相关 概念 ， 包 括 层 合 属性 
了 属性 操作 符 和 查询 语法 。 在 第 3 4 
| 验证 了 该 系统 上 


Hw Le ARH 


2 概念 设计 


能 面临 的 挑战 进行 了 展望 。 


传统 属性 图 


模型 无 法 有 效 表达 非 结构 化 属性 


于 原始 数据 中 的 衍生 信息 ， 这 种 信息 在 针对 数据 本 身 的 建 模 方法 中 缺少 合理 的 表示 。 应 设计 合理 的 


智能 属性 图 模型 及 其 查询 


图 、 智 能 属性 图 、 次 级 属性 等 ， 并 提出 


P 给 出 了 基于 智能 属性 图 模型 的 一 个 系统 设计 和 具体 实现 。 在 第 4 节 中 
的 效率 及 可 行 性 。 第 5 节 介 绍 了 与 本 文 研 究 相 关 的 工作 。 最 后 ， 对 未 来 研究 可 


上 属性 图 扩 


展 模型 ， 以 解决 非 结 构 化 属性 的 有 效 表 
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Ds 


达 问 题 ， 然 后 介绍 针对 属性 
性 带 来 的 新 查询 特性 。 
2.1 属性 图 扩展 模型 


传统 属性 图 模型 可 以 形式 化 表示 为 G=(V, E, P)， 其 中 G 表示 全 体 数据 ，V 表示 数据 中 的 实体 集合 ， 了 
表示 实体 间 的 关系 集合 ，P 表示 数据 集中 实体 的 属性 集合 。 
针对 图 片 、 语 音 、 文 本 这 样 的 非 结 构 化 属性 ， 属性 图 模型 无 法 有 效 揭示 其 蕴含 的 内 在 信息 (如 : 某 类 顶 
点 的 photo 属性 蕴含 有 “车 牌号 ”信息 )， 内 在 信息 的 表达 通常 是 离线 且 不 完全 的 : 
。 BR: 将 非 结构 化 属性 转化 为 结构 化 、 半 结构 化 属性 的 ETL 过 程 属于 对 数据 的 预 处 理 ; 

。 ”不 完全 : ETL 方式 需要 根据 所 需 提取 的 目标 结构 化 、 半 结构 化 属性 逐 案 实现 ， 无 法 枚 举 其 中 蕴含 

的 全 部 结构 化 、 非 结构 化 属性 。 


扩展 模型 的 语义 操作 和 查询 语法 设计 ， 以 支持 因 引 入 非 结构 化 属性 及 其 次 级 属 


SS 


KH RX TE 2) 1 Je ERIRE, WER ME RET T P R Je h R AJR E BR A A 9 J 
性 图 模型 。 


定义 2-1: 具备 以 下 特征 的 属性 图 被 称 为 层 登 属性 图 (Cascading Property Graph): 

1) ， 层 登 属 性 图 Ge 可 以 表示 为 G= (VE, PP,PN)， 其 中 PP 是 基本 属性 (Primitive Property) #4, PN 
ARAB (Nested Property) 集合 ; 

2) 基本 属性 的 值 为 文本 、 数 值 等 基本 数据 类 型 ; 

3) ARAB MLA SPARE; 


定义 2-2: 具备 以 下 特征 的 属性 图 被 称 为 智能 属性 图 〈Intelligent Property Graph) : 

1) ”智能 属性 图 GI 可 以 表示 为 G 二 (VE,PI)， 其 中 了 I 为 智能 属性 ; 

2) 智能 属性 EL 具 有 了 PP/PN 二 象 性 ， 即 具有 基本 属性 和 内 误 式 属性 两 个 状态 ; 

3) ”在 G! 中 ， 存 在 展开 操作 山 ， 可 满足 PN= 山 (PP)， 即 将 基本 属性 PRIA ARAA T PN; 

4) 在 GI 中 ， 存 在 语义 计算 操作 5 ， 可 满足 ga=E(GIGD)， 即 针对 Gli 和 Gl 两 个 智能 属性 进行 语义 
HH, SRO; 


FEM 2-3: AMARA YPN, HAARKAAY (Sub-property) P'S: 

1) ”存在 Vi, PNEG*，Vi 是 层 登 属性 图 中 的 节点 ，PNi 是 菜 个 节点 Vi 的 内 嵌 式 属性 ; 

2) PN 的 值 可 以 表示 为 Gni，Gni 一 Vn= Ø; Vn-Vnl= Ø Pni 的 值 可 以 表示 为 属性 图 Gnu, E Gni 的 顶点 集 
Vn 中 仅 包含 一 个 顶点 Vni; 

3) ”顶点 Vn 的 属性 集合 PIS， 其 中 的 任 一 元 素 PIHSj 被 称 为 Vi 的 次 级 属性 ; 


智能 属性 ， 可 以 表达 结构 化 属性 和 非 结 构 化 属性 。 1 示 出 一 个 智能 属性 图 ， 针 对 Car 类 型 的 顶点 
carl1， 具 有 一 个 内 购 式 属性 photo， 执 行 展 开 操 作 后 ，carl 具有 两 个 次 级 属性 : photo->plateNumber 和 


photo->model. 


plateNumber=H 


introduction=“Volkswagen 
was established in 1937...” 


SEAS Ez 基本 属性 
a HMF442 
Fig.l Intelligent Property Graph Model 
图 1 智能 属性 图 模型 
2.2 属性 操作 符 
根据 定义 2-2， 本 文 定 义 了 针对 智能 属性 的 次 级 属性 抽取 操作 符 和 语义 相似 度 操作 符 
。 ”次 级 属性 抽取 操作 符 : 次 级 属性 抽取 操作 符 -> 用 以 从 抽取 智能 属性 由理 含 的 次 级 属性 ， 如 针对 photo 
属性 执行 photo->plateNumber， 即 可 抽取 到 photo 中 的 车 牌号 ; 
。 ”语义 相似 度 操 作 符 ， 传统 属性 图 查询 语言 中 的 谓词 (Predicate)， 只 支持 对 属性 进行 比较 ， 如 =、 
<、 正 则 匹配 等 。 本 文 针 对 属性 新 增 ~:、::、:> 等 拓展 谓词 ， 以 表达 非 结构 化 属性 之 间 的 相似 关系 、 
相似 度 、 包 含 等 关系 。 
Table.1 Semantic Similarity Operators 
表 1 语义 相似 度 操 作 符 
diaa E ERN _{ sy 
SemanticContain >: 计算 x 是 By y>:x=true 
在 属性 图 模型 中 ， 非 结构 化 属性 由 于 其 内 在 信息 的 不 可 见 性 ， 非 结构 化 属性 之 间 的 计算 操作 支持 有 限 。 
根据 定义 2-1、2-2、2-3 和 属性 操作 符 的 特性 ， 智 能 属性 图 模型 可 以 实现 非 结 构 化 属性 内 在 信息 的 在 线 、 完 全 
表达 。 
。 FER: 从 非 结构 化 属性 中 提取 结构 化 、 半 结构 化 信息 〈 即 次 级 属性 ) 的 过 程 是 按 需 触发 的 ， 无 需 对 
非 结 构 化 属性 进行 专门 的 预 处 理 。 
。 ”完全 : 在 底层 查询 机 制 的 支持 下 ,可 以 实现 针对 非 结构 化 属性 的 直接 运算 ; 次 级 属性 根据 查询 语句 
生成 ， 无 需 预 先 定 义 ， 因 而 也 无 需 逐 案 实现 从 非 结 构 化 属性 中 提取 各 种 蕴含 属性 的 ETL 过 程 。 
因此 ， 智 能 属性 图 模型 非常 适合 结构 化 / 非 结 构 化 数据 的 统一 表达 ， 基 于 智能 属性 图 模型 构建 的 数据 库 管 
理 系统 ， 可 实现 结构 化 / 非 结构 化 数据 的 融合 管理 
2.3 查询 语法 
本 文 针 对 智能 属性 图 模型 ， 基 于 标准 化 的 Cypher 查询 语言 进行 扩展 ， 形 成 CypherPlus 语言 。CypherPlus 
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语言 在 语法 层面 引入 次 级 属性 


对 非 结构 化 属性 的 表达 书 


[语义 操作 。 


(1) BlobLiteral: | 


HTTP(S)、FTP(S)、BASE64 等 多 种 类 型 。 如 图 2 所 示 ; 


(2) SubPropertyExtraction: 用 于 表达 次 级 属性 的 抽取 操作 ， 如 图 3 所 示 ， 


级 属性 的 名 称 ; 


= [^<>"{}1^ \#x0000-#x0020] = 


m | 


Fig.2 Grammer definition of BlobLiteral 


图 2 BlobLiteral 语法 定义 


PropertyExtraction: 


Fig.3 Grammer definition of SubPropertyExtration 


图 3 SubPropertyExtraction 语法 定义 


取 操 作 符 、 非 结构 化 属性 操作 符 、 非 结构 化 属性 字面 值 等 新 特性 ， 从 而 支持 


于 表达 非 结构 化 属性 字面 值 ， 格 式 如 <schema:/path>， 其 中 schema 可 以 为 FILE、 


其 中 PropertyKeyName 为 次 


(3) SemanticComparison: 包括 SemanticCompare 、 SemanticLike 、 SemanticUnlike ~ SemanticIn 、 


SemanticContain 等 操作 符 。 


以 SemanticLike 为 例 , 它 用 以 指示 两 个 属 己 
其 中 AlgorithmName 为 指定 计算 的 算法 名 称 ，Threshold XAJ, AlgorithmName 和 Threshold 为 可 选项 ， 该 情 
况 下 执行 引擎 则 采用 默认 的 比较 器 和 效 值 。 


例如 ， 针 对 图 1 的 数据 模型 ， 可 以 查找 与 车 牌号 为 "HHMF442” 的 车 相似 的 车 ， 


Fig.4 Grammer definition of SemanticLike 


图 4 SemanticLike 语法 定义 


的 值 是 否 相似 , 语法 定义 如 图 


查询 语句 如 下 : 


Q1: match (cl:CAR), (c2:CAR) where cl.photo~:c2.photo and cl->plateNumber=’ HHMF442’ return c2; 


查询 语句 Q1 可 以 形式 化 地 描述 为 : 


3 系统 实现 


为 实现 结构 化 、 非 结构 化 数据 的 融合 管理 和 关联 查询 分 析 ， 本 文采 上 
图 数据 库 管理 系统 PandaDB。 本 部 分 3.1 小 节 介 绍 PandaDB 的 总 体 架 构 ， 


版 本 ， 设 计 并 实现 了 原生 支持 AI 


Ta: ~A.Bpneoto™ Fa ynoto-splateNumber N FA Biavet: car) 


3.2 到 3.6 分 别 介绍 各 模块 的 设计 思路 和 实现 细节 。 


J% fE J 


BERRE, 7 


F Neo4j J 


4 所 示 ， 


开源 


3.1 总 体 架 构 

PandaDB 以 智能 属性 图 模型 的 形式 组 织 数据 ， 数 据 的 存储 形态 被 分 为 图 结构 数据 、 结 构 化 属性 数据 和 非 
结构 化 属性 数据 三 部 分 。 其 中 ， 图 结构 数据 指 图 的 节点 和 边 等 描述 图 结构 的 数据 ;结构 化 属性 数据 指数 值 、 
字符 串 、 日 期 等 类 型 的 数据 ， 非 结构 化 属性 数据 泛 指 除 结构 化 数据 之 外 的 数据 ， 如 视频 、 音 频 、 图 片 、 文 档 
等 。PandaDB 以 BLOB 对 象 的 形式 存储 非 结构 化 数据 ， 并 将 其 表示 为 实体 (节点 ) 的 属性 。 根 据 上 述 三 类 数 
据 的 应 用 特点 ，PandaDB 设计 了 分 布 式 多 元 存储 方案 : 
。 ”分 布 式 图 数据 : 基于 传统 的 图 数据 库 保存 图 结构 数据 和 属性 数据 ， 在 每 个 节点 上 保存 相同 的 数据 副 
本 ; 
。 ”结构 化 属性 协 存 : 基于 ElasticSearch, Solr 等 外 部 存储 实现 大 规模 结构 化 属性 数据 的 索引 ; 

。 BLOB 存储 : 基于 HBase、Ceph 等 存储 系统 实现 非 结 构 化 属性 数据 的 分 布 式 存 储 ; 


Client 


+ Zook 
(PandaDriver) a BET 
| F 
: PandaNode PandaNode —> : 
1 = y = i 
AIPM : > Query Engine | 
! \ 人 J t—— PandaNode — 
iStorage + —— ee 
! Native-Rel Storage [ Prop Storage Interface | — PandaNode — 


Fig.5 Architecture of PandaDB 
图 5 PandaDB 总 体 架 构 设 计 
PandaDB 总 体 架构 如 图 5 所 示 ， 重 要 模块 描述 如 下 : 

。 ”存储 引擎 : 维护 本 地 的 图 结构 数据 ， 调 度 外 部 属性 存储 ， 按 需 为 查询 引擎 提供 服务 ; 

。 ”外 部 存储 : 包括 基于 ElasticSearch 的 结构 化 属性 协 存 和 基于 HBase 的 BLOB 存储 两 部 分 ; 

。 ”查询 引擎 : 解析 并 执行 CypherPlus 查询 ; 

。 => AIPM: AI 模型 服务 框架 ， 通过 模型 和 资源 管理 ， 实 现 AI 模型 的 灵活 部 署 、 高 效 按 需 运行 ， 同时 有 

效 屏蔽 AI 模型 之 间 的 依赖 。 

PandaDB 集群 采用 了 无 主 架 构 设 计 ， 其 中 PandaNode 是 单个 节点 ， 包 含 查询 引擎 和 存储 引擎 两 部 分 。 属 
性 数据 和 非 结构 化 数据 存储 在 外 置 分 布 式 存储 工具 中 ， 单 个 节点 只 保存 图 结构 数据 ， 通 过 属性 存储 接口 与 外 
置 存 储 交 互 。 

3.2 存储 机 制 

PandaDB 将 BLOB 引入 了 Neo4j 的 类 型 系统 ， 同 时 对 Neo4j 的 存储 结构 进行 了 改造 。 存 储 结构 如 图 6 所 

示 ， 除 了 Neo4j 使 用 区 ，BLOB 的 属性 字段 同时 记录 了 BLOB 的 元 数据 ， 包 括 : 唯一 标识 blobid、 长 度 length 
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和 MIME 类 型 。 


: ED 
BOOL) Neo4j 保 留 区 Blob 属 性 区 
BYTE(2) \ ` 
SHORT(3) 
reserved type key id ee mime type 
CHAR(4) 器 (36bits) || (bits) || (3 bytes) i i (2bytes) 
on A = 
BLOB(15) a ae 
i ~ BlobValueManager ra : 
N -> 
K 
CephBlobValueManager HbaseBlobValueManager 


Fig.6 Design of BLOB storage structure 
图 6 BLOB 存储 结构 设计 


为 实现 对 外 部 BLOB 存储 系统 的 调用 ， 设 计 BlobValueManager 接口 ， 定 义 了 getByIdO/store(y/discardO 等 
操作 方法 。 作 为 BlobValueManager 的 一 个 实现 ，HbaseBlobValueManager 基于 Hbase 集群 实现 BLOB 数据 的 


存 取 。 在 该 方案 中 ， 为 支持 大 规模 BLOB 的 存储 ，Hbase 被 设计 成 包含 100 个 列 的 宽 表 , 采 


HBase 表 的 rowkey, blob%100 对 应 于 Hbase 的 某 一 列 。 


AMM BLOB 的 读 取 , BLOB 的 内 容 读 取 被 封装 为 一 个 InputStream, 在 


容 或 进行 语义 计算 的 时 候 ， 这 种 流 式 读 取 的 机 制 提高 了 运行 的 性 能 。 


eas 


| blobid/100 作为 


j 户 通过 Bolt 协议 获取 BLOB 内 


多 元 存储 带 来 了 存储 事务 安全 的 复杂 性 ， 客 户 端 在 写 入 数据 时 ， 将 写 操作 请 求 发 送 到 PandaDB 的 Leader 


节点 ， 然 后 由 Leader 节点 执行 具体 的 写 入 操作 。 如 图 7 所 示 ，Leader 节点 的 


(1) Leader 节点 开启 事务 ， 执 行 Cypher 解析 ， 翻 译 成 具体 的 执行 操作 ; 


\ 体 操作 流程 如 下 : 


(2) 向 BLOB 存储 引擎 发 送 请 求 ， 执 行 BLOB 数据 的 写 入 操作 。 若 执行 失败 ， 则 向 上 回 滚 ， 标 记事 务 失 


败 ; 


(3) Æ BLOB 数据 写 入 成 功 ， 则 执行 图 结构 数据 和 结构 化 属性 数据 的 写 入 操作 。 若 执行 失败 ， 则 向 上 


uy 


滚 ， 标 记事 务 失败 ; 


pai 


(4) 将 结构 化 属性 数据 的 修改 ， 同 步 到 协 存 。 若 执行 失败 ， 则 向 上 回 滚 ， 标 记事 务 失败 ; 


(5) 执行 事务 提 
(6) 关闭 事 


‘a 
bi SF 


操作 成 功 。 


客户 端 


图 数据 库 


Blob 存 储 


执行 cypher 


| 接收 事务 执行 请 求 


开启 事务 


执行 Blob 相 关 的 操作 


ERRE 


若 之 前 执行 Blob 数 据 写 入 操作 ， 


则 发 送 Blob 相 关 撤 销 操作 a baie 


执行 Blob 撤 销 操作 


若 之 前 执行 图 数据 相关 操作 ， 则 
执行 回 滚 操 


若 之 前 执行 协 存 数据 写 入 操作 ， 
则 发 送 协 存 相关 撤销 操作 


执行 Blob 写 入 操作 


Blob 存 储 


-下 执行 协 存 数 据 写 入 
操作 


协 存 引 擎 


y 执行 协 存 数据 撤销 
操作 


查询 机 制 


PandaDB 查询 引擎 主要 实现 查询 语句 的 解析 、 人 逻辑 计划 的 9 
Neo4j, PandaDB 查询 引擎 
C) 解析 阶段 : 


抽取 操作 


加 


Fig.7 Write Transaction process in PandaDB 
7 PandaDB 存储 事务 处 至 


葛 改 进 如 下 几 个 部 分 : 
曾 强 Cypher 语言 的 解析 规则 ， 文 持 BLOB 字面 常量 
 CSubPropertyExtraction), LAK Ja 
(2) 语法 检查 阶 


可 


现 非法 的 BLOB 路 径 ， 非 法 的 语义 算 子 和 阔 值 等 ; 


(3) 计划 优化 阶段 ， 针对 BlobLiteral 的 操作 进 


Age 


sF; 


(4) ik 


NAT Bt 


IVE. BLOB 获取 与 语义 计算 ; 


ath 


生 协 存 模块 、AIPM 模块 ， 以 及 BLOB F fie REY 


流程 


成 与 优化 、 物 到 


语义 计算 操作 符 


行 优 化 ， 针 对 大 规模 


个 典型 的 查询 流程 如 图 


计划 的 选择 与 执行 。 基 于 


(BlobLiteral), BLOB 二 级 属性 的 
CSemanticComparison ); 
Br: 针对 BlobLiteral、SubPropertyExtraction 、SemanticComparison 执行 形式 检查 ， 如 发 


性 过 滤 情 形 ， 采 


谓词 下 推 策略 


k, SCHL 


高 效 的 属性 优先 
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客户 程序 执行 引擎 协 存 Blob 存 储 AI 服务 
T T T T T 
i | | | 
提交 Cypher 查 询 

一 一 一 时) I | 
match (n) where 根据 n.age>30 过 滤 顶 点 | | 
n.age>30 and | | 
n.photo :~ $photo0 返回 顶点 ID 列表 | | 
retumin 国宝 i | | 
获取 顶点 的 photo 属 性 (BLOB) >! ! 
Seen’ ERBIO | 
r i T | 
| l l 1 

匹配 到 并 调用 | | 
PD FaceSim 比 较 器 ! | | 

| ”调用 FaceSim 服 务 1 
T; T P 

| 返回 是 否 相似 | 
返回 查询 结 BE 0 i a 1 oe T 
< 返回 查询 结果 | | 
T | l | l 
| | 1 | | 

Fig.8 CypherPlus Query Process 
图 8 CypherPlus 查询 流程 
图 9 从 查询 语法 、 查 询 计划 、 执 行 引擎 三 个 层面 示 出 PandaDB 查询 机 制 的 设计 。 
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3.4 属性 数据 协 存 
PandaDB 引入 


ath 


call 


性 数据 协 存 机 制 ， 主 
PandaDB 支持 ElasticSearch 作为 协 存 引擎 。 


Fig.9 Query Mechanism of intelligent property graph 


图 9 
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Fig.10 Write progress of property co-store module in PandaDB 
图 10 PandaDB 协 存 模块 的 号 入 流程 


10 示 出 PandaDB 协 存 模块 的 写 入 流程 ， 实 现 方法 
(1) 属性 数据 在 ElasticSearch 中 的 存储 结构 : 每 个 Neo4j 


HRU F: 


区 


一 个 独立 的 索引 ， 每 个 节点 的 属性 数据 和 标签 数据 均 组 织 成 ElasticSearch 4 


档 


在 Neo4j 数据 库 中 的 ID 作为 文档 
的 属性 数 


的 ID， 节 点 属性 标签 作为 文档 的 属性 标签 ， 


年 特殊 的 属 


设 


i 


期 、 
(2) 


时 间 等 属性 数据 类 型 分 别 转 换 为 ElasticSearch 中 的 对 应 数据 类 型 ; 


性 写 入 及 更 新 :为 了 保证 Neo4j 数据 库 中 
Neo4j 中 事务 操作 执行 模块 (Operations) 中 的 节点 更 新 部 分 进行 了 扩 


日 
属 
对 
} 

性 


(3) 


络 
35 AI 算 法 调度 


于 存储 在 Neo4j 事务 
生 、 删 除 节 点 等 操作 的 
库 执 行事 务 提交 操作 的 
属性 过 滤 : 为 了 
造 ， 将 节点 属性 
求 ， 最 后 将 命中 
传输 延迟 ，PandaDB 采用 


于 


中 执行 的 所 有 操 
同时 ， 也 将 对 应 的 操作 数 志 


的 本 地 数据 和 ElasticSearch 中 的 


a 


于 协 存 


司 时 将 缓存 的 操作 数据 同步 到 ElasticSearch 中 ; 
实现 节点 


= 


AE 


LEE] 


AI 算法 调度 主要 包括 本 地 算法 驱动 管理 


C1) 本 地 算法 驱动 管理 : 


较 器 (SemanticCompartor), ii 


宠物 类 型 ， 适 | 


] F blob/image 类 型 的 
于 两 个 string 类 型 的 属性 。 


的 文档 《〈 节 点) 列表 返 
了 异步 分 批 的 方式 传递 的 查询 


Æ. PMI Neo4 数据 库 执行 插入 节点 、 添 加 标签 、 设 
ERTI] ExternalPropertyStore 中 ， 当 Neo4j 数据 


Fh 的 一 个 文档 
节点 属性 


性 标签 用 于 存储 节点 的 标签 数据 。Neo4j 中 的 数值 、 字 符 串 、 坐 标 、 


数据 库 对 应 协 存 引擎 〈ElasticSearch) 中 的 
， 其 中 节点 
数据 作为 文 


数据 保持 一 致 , PandaDB 


展 , Wit ExternalPropertyStore 
we 


性 过 滤 ，PandaDB 对 Neo4j 的 cypher 查询 执行 计划 进行 了 改 
过 滤 谓 词 下 推 到 协 存 管理 模块 。 然 后 根据 谓词 过 滤 条 件 生成 ElasticSearch 的 检索 请 


口 


给 查询 引擎 做 进 


+ 四 
结果 。 


为 针对 不 同类 型 的 BLOB 执行 不 同 


和 AI 算法 服务 框架 。 
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JE {4 
Py 


Æ] 11 


Æ; CosineStringSimilarity 


所 示 的 驱动 管理 规则 库 。 图 11 中 的 DogOrCatClassifier 月 


以 计算 两 个 文本 上 


步 筛选。 为 了 避免 大 量 


的 余弦 相似 度 ， 仅 适 月 


查询 结果 增 大 网 


的 抽取 器 (SubPropertyExtractor〉 和 语义 比 
日 以 抽取 
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(2) AI 算法 服务 框架 ，AIPM 用 以 
， 便 于 PandaDB 按 需 扩展 AI 算 子 。 该 模块 通过 容器 技术 | 
给 出 了 APM 与 系统 之 间 


维护 难度 


了 AI 算 子 的 快速 部 署 。 图 12 
查询 请 求 ， 请 求 的 路 径 与 AI 算法 具有 对 应 关系 ，AIPM 接受 到 查询 请 求 ， 调 | 


w extractors 
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Fig.11 Extractor and Semantic comparator matching rule set 
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抽取 器 和 语义 比较 器 匹配 规则 库 
屏蔽 不 同 AI 模型 之 间 的 依赖 冲突 问题 ， 降 低 人 工 智能 模型 的 部 署 和 


多 式 返 回 结果 。 为 了 增强 AI 算 子 的 可 扩 
的 支持 。 
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3.6 分 布 式 架构 


为 提升 对 高 并 发 查询 请 求 的 响应 能 力 ，PandaDB 采用 分 布 式 架构 。 通 过 Zookeeper 
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分 别 是 Ready, PreWrite. Writing, Written, 其 中 
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13 AI 模型 管理 框架 


护 当 前 可 用 的 节点 


12 


Ready 表示 集群 
响应 新 的 请 求 ，Written 表示 写 完成 ， 立 即 跳 转 到 Ready 状态 。 用 


是 PandaDB 对 写 请 求 的 响应 示意 图 ， 当 PandaDriver 


C1) 判断 当前 节点 状态 ， 
若 集 群 处 于 Ready， 
(2) 建立 与 leader node 之 间 


状态 。 


正常 对 外 提供 服务 


只 有 当前 集群 处 于 Ready 状态 
通过 Zookeeper 选举 
的 连接 ， 向 leader node 发 出 写 请 求 ; 


leader node; 


， 了 响应 一 切 读 、 写 请 求 ，PreWrite 和 Writing 分 别 是 预 写 状态 和 写 状 态 ， 不 
户 程序 通过 PandaDriver 与 集群 交互 ， 
AKAA F R ESR, 
时 ， 才 执行 下 一 


图 14 


响应 步骤 如 下 : 
步 操作 , 否则 等 待 集群 


变 为 Ready 


(3) leader node 向 其 他 节点 发 出 预 写 通知 ， 并 将 集群 状态 置 为 PreWrite， 此 时 不 再 响应 新 的 读 / 写 请 求 ， 
对 于 原 有 的 读 请 求 ， 继 续 提 供 服 务 直至 结束 ; 
(4) 当 系 统 中 没有 正在 执行 的 读 任务 后 ，leader node 向 其 他 节点 发 出 写 指令 ， 指 令 的 内 容 为 CypherPlus 
语句 ; 
(5) 各 节点 执行 CypherPlus 语句 开始 写 数据 ， 系 统 进 入 Writing 状态 。PandaDB 采用 属性 外 置 的 设计 ， 
因此 对 外 置 属性 的 写 操作 仅 由 leader node 发 起 ; 
(6) 写 操作 完成 后 ，leader node 向 Zookeeper 更 新 数据 版 本 ， 数 据 版 本 的 作用 是 ， 判 断 节 点 本 地 数据 是 
= 否 是 最 新 的 ， 集 群 状态 置 为 Written; 
(7) 返回 结果 ， 集 群 状态 变 为 Ready。 
External 
Storage 
©) Driver, writeRequest Leader Write props to 
Result external storage. 
ews j4 © = > gNode-A ; 
river © preWrite 
G) Write ; 
D 
(A) selectWriteNode © rnea 
gNode-B 上 
© preWrite 
©) Write : 
© writeData 
ZK Registry Center | 一 一 一 一 
c (6) Update Version gNode-C ”| 一 


GS) Write 


Fig.14 Process of write request handling in PandaDB cluster 


区 


14 PandaDB 集群 写 操作 处 二 


区 


里 流程 示意 


Table.2 Step and cluster status in write progress 


表 2 写 操 作 响应 步 又 与 集群 状态 


操作 序号 集群 状态 
1,2 Ready 
3 PreWrite 
4,5 Writing 
6 Written 
7 Ready 


Ds 


析 、 生 成 逻辑 


计划 、 


15 是 系统 对 读 请 求 的 响应 流程 示意 。 
个 可 用 节点 ， 建 立 与 该 节点 的 连接 ， 然 后 发 送 查 询 
执行 等 过 程 ， 并 将 结果 返 


xe 上 
上 


用 户 发 出 读 请 求 时 ，PandaDriver 在 Zookeeper 上 随机 选取 一 


语句 。PandaNode 接收 查询 语句 后 ， 进 行 语 名 解析、 语义 分 
回 给 PandaDriver。 
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c= 


系统 效果 评估 
AFA Heil 


4.1 属性 协 存 性 能 测试 


为 验证 基于 ElasticSearch 属 


Q) Direct Driver 
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PandaNode 


©) CypherPlus 
Panda Driver 
©) Result 


© 


E PandaDB fj 14 
生 能 测试 ， 同 时 通过 3 AMHR 


ZK Registry Center 


PandaNode 
PandaNode 


Fig.15 Process of read request handling in PandaDB cluster 


ll 


性 协 存 方案 的 性 能 ， 设 计 本 测试 ， 


Pi) 


的 查询 性 能 进行 对 比 ， 测 试 环境 如 表 3 所 示 。 


Table.3 Information about test environment 


冷 


xv 


表 3 测试 环境 信息 


图 15 PandaDB 集群 读 操作 处 理 流程 示意 图 


E 能 和 功能 ， 本 文 设计 了 5 个 测试 实验 或 案例 ， 针 对 属性 协 存 和 分 布 式 方案 进行 
1 验证 PandaDB 对 结构 化 和 非 结构 化 数据 的 融合 管理 能 力 。 


对 Neo4j 和 引入 协 存 方案 后 的 PandaDB 


测试 环境 


环境 描述 


服务 器 软 硬 件 环境 


内 存 : 128GB 
硬盘 : 6TB 7200 RPM SAS HDD 
网 络 : 1000 mbps 互联 


5 台 同 等 配置 的 物理 服务 器 ， 单 台 服务 器 配置 为 : 
CPU: 32 颗 Intel(R) Xeon(R) CPU E5-2640 v3 @ 2.60GHz 


操作 系统 : CentOS Linux release 7.7.1908 (Core) 


测试 软件 版 本 


Neo4j: 3.5.6 (社区 版 ) 
PandaDB: v0.0.2 〈 开 发 版 ) 
ElasticSearch: 6.5.0 


环境 部 署 


5 台 服 务 器 均 部 署 了 ElasticSearch; 
4 台 服 务 器 部 署 PandaDB; 
1 台 服 务 器 部 署 Neo4j; GE: 该 Neo4j 版 本 


SCHR ak a ) 


测试 数据 


( 注 : 此 数据 集 来 自 于 实际 科技 知识 图 谱 项 


图 数据 集 : 1 亿 节 点 (包含 6 种 标签 )，17 亿 关 系 〈 包 含 10 种 类 型 ) 


， 其 中 实体 包括 人 员 、 机 构 、 论 文 


等 内 容 。) 


测试 的 数据 集 选取 的 Cypher 查询 语句 如 表 4 所 示 , 分 别 进行 多 次 测试 并 取 执 行 时 间 的 平均 值 。 为 避免 
动 带 来 的 性 能 影响 ， 测 试 前 分 别 对 系统 进行 了 预 热 。 


Table.4 Query statement in propery co-store test 


表 4 协 存 方案 验证 测试 的 查询 语句 


编号 测试 语句 测试 类 型 描述 
match (n:paper) where n.country="Malta" return count(n) ; 节点 查询 〈 单 属性 精准 过 滤 ) 
match (n:person) where n.org STARTS WITH "Shanghai" return count(n); 节点 查询 〈 单 属性 模糊 匹配 ) 
match (n:paper) where n.country = "United States" and n.citation = 10 return count(n) ; 节点 查询 〈 双 属性 精准 过 滤 ) 


count(n); 


match (n:person) where n.org STARTS WITH "Shanghai" and n.citations=1 return | 节点 查询 (模糊 匹配 与 精准 匹 


配 结合 的 双 属 性 过 滤 ) 


match (n:person) where n.citations=100 and n.citations5=200 return count(n); 节点 查询 〈 双 属性 精准 过 滤 ) 
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Q-6 | match (n:person) where n.citations=192 and n.citations5=204 and n.nationality="France" | 节点 查询 (三 属性 精准 过 滤 ) 
return count(n); 
Q-7 match (n:person) where n.citations=192 and n.citations5=204 and n.nationality="France" | 节点 查询 (四 属性 精准 过 滤 ) 
and n.publications5=5 return count(n); 
Q-8 match (startNode:paper)-[r]->(other) where  startNode.country = "Japan" and | 关系 查询 (返回 末端 节点 信 
startNode.citation = 5 return count(other); B) 
Q-9 match (n:person)-[r:work_for]->(other) where n.org starts with "Beijing" and n.citations = | 关系 查询 〈 返 回 关系 信息 ) 
1 return count(r) 
Q-10 | match (startNode: person { personId:'32'}) optional match (startNode)-[r:write_person] - | 关系 查询 〈 可 选 关 系 匹 配 ) 
(other) return count(other) 
Table.5 Test result for property co-store 
表 5 协 存 方案 验证 测试 结果 m 
测试 语 | 平均 执行 时 间 (单位 :| 执行 时 7 
句 编号 | ms) 间 比 值 
Neo4j PandaDB j 
QI 184 189 0.97 E 
Q-2 96.5 97.5 0.98 
Q-3 1001.5 55 18.20 w i 
Q-4 426 42 10.14 | 
Q-5 358 309 1.15 E E E li k reese 
= aun SLS pel Poa y ie 
Q7 94 52.5 1.79 es 
Q-8 2,658 2,210 1.20 Fig.16 Comparison of query time in co-store 
= = = 1:03 16 WEEN RAEAN NIN Td H 
Q-10 53 62 0.85 
从 测试 结果 可 看 出 ， 由 于 采用 了 ElasticSearch 作为 节点 属性 的 协 在 和 索引 ， 在 上 述 查 询 语句 执行 测试 中 ， 
PandaDB 占据 明显 优势 ， 尤 其 在 节点 多 属性 过 滤 查 询 和 模糊 匹配 查询 中 性 能 平均 提升 2~6 倍 。 
4.2 分 布 式 性 能 测试 
为 验证 分 布 式 架构 带 来 的 查询 相应 能 力 的 提升 ， 在 独立 的 物理 机 集群 上 部 署 了 PandaDB， 同 时 部 署 了 
Neo4j 单机 版 ， 对 分 布 式 查询 性 能 进行 评估 ， 测 试 环境 如 表 3 所 示 。 
Cypher 语句 如 表 6 所 示 , 分 别 进行 了 冷 启动 和 热 启动 两 组 测试 ,测试 中 的 Cypher 语句 在 Neo4j 和 PandaDB 
中 均 是 并 发 执行 的 。 


Table.6 Query statement in distributed solution test 


表 6 分 布 式 方案 测试 使 用 的 查询 语句 

编号 Cypher 语句 

Q-1 Match (n:paper) where toInteger(n.publishDate)>20000000 return distinct n.paperType, count(n.paperType) 

Q-2 Match(n) return distinct labels(n), count(n) 

Q-3 Match (n)-[r:org_paper]->(m) where n.cnName contains ' 医 院 ' AND m.citation>5 Return count(m) 

Q-4 Match(n:person) return n.chineseName Order By n.influenceScore Desc limit 25 

Q-5 Match(n:person) With distinct n.chineseName as name, count(n.chineseName) as counts where counts>1 return name, 
counts 

Q-6 Match p=(nI:dictionary_ccs) <- [rl:criterion_belong ccs] - (n2:criterion) <- [r2:org_criterion] - (n:organization) - 
[r:org_criterion] -> (n3:criterion) - [r3:criterion_belong_ ccs] -> (n4:dictionary_ccs) Where not nl.dictionaryId = 
n4.dictionaryld return count(n) 

Q-7 Match(n:paper) where n.paperType contains ' 期 刊 ' return count(n) 

Q-8 Match(n:patent) where toInteger(n.awardDate) > 20180000 return count(n) 

Q-9 Match(n:paper_keywords) where n.times_all>1 return count(n) 

Q-10 Match(n:patent) where n.chineseName contains ' 装 置 ' return count(n) 
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Table.7 Response time for queries in distributed solution test 


表 7 分 布 式 方案 查询 响应 时 间 (单位 : ms) 
冷 启动 热 启 动 
响应 时 间 (单位 ，ms) 比值 响应 时 间 (单位 : ms) 比值 
Cypher 语句 Neo4j PandaDB Neo4j PandaDB 
Q-1 超时 262,915 - 89,141 66,487 1.34 
Q-2 202,853 68,989 2.94 103,148 58,021 1.77 
Q-3 超时 超时 295,611 162,833 1.81 
Q-4 超时 163,062 - 73,422 45,873 1.60 
Q-5 超时 271,975 - 179,365 152,377 1.17 
Q-6 156,421 47,506 3.29 81,991 52,755 1.55 
Q-7 135,344 113,123 1.19 28,887 16,659 1.73 
Q-8 398,781 170,393 2.34 20,733 18,613 1.11 
Q-9 478,595 7,786 61.46 8,067 7,864 1.02 
Q-10 1,068,889 7,437 143.72 6,364 9,614 0.66 
第 1 次 测试 得 到 的 查询 响应 时 间 成 得 到 的 查询 响应 时 
= ah 
Fig.17 Comparison of response time in cold boot Fig.18 Comparison of response time in hot boot 
test test 
图 17 分 布 式 方案 冷 启动 查询 响应 时 间 对 比 图 18 分 布 式 方案 热 启动 查询 响应 时 间 对 比 


K 7 是 在 冷 启动 和 热 启动 条 件 下 分 别 测试 得 到 的 结果 ， 图 17 和 图 18 是 对 结果 的 对 比 展示 ， 其 中 单 次 
查询 响应 时 间 超 过 300 秒 则 认为 系统 无 响应 。 由 测试 结果 可 以 看 出 ， 在 上 述 并 发 测试 中 ， 采 用 了 4 个 节点 的 
分 布 式 架构 方案 的 PandaDB 平均 响应 时 间 是 单 节点 的 Neo4j 的 1/2 到 1/3. 


4.3 案例 1: 关联 数据 发 布 


关联 数据 (Linked Data) 的 概念 由 Berners-Lee 于 2006 年 提出 [9]， 其 原理 是 用 一 种 轻型 的 、 可 利用 分 布 
数据 集 及 其 自主 内 容 格式 、 基 于 标准 的 知识 表示 与 检索 协议 、 可 逐步 扩展 的 机 制 实现 可 动态 关联 的 知识 对 象 
网 络 ， 并 支持 在 此 基础 上 的 知识 组 织 和 知识 发 现 。 

关联 数据 的 发 布 机 制 和 方法 研究 ， 即 如 何 把 原始 数据 发 布 成 机 器 可 理解 、Web 可 访问 的 RDF 数据 ， 是 关 
联 数据 一 直 以 来 的 研究 热点 [10]。 目 前 绝 大 部 分 的 关联 数据 集 都 采用 两 种 方式 来 发 布 数据 : 一 种 诸如 D2RQ[11] 
等 在 线 映 射 的 方法 ， 即 将 存储 在 关系 数据 库 中 的 数据 转换 成 关联 数据 ;另外 一 种 则 采用 诸如 Virtuoso、3Store 
等 系统 将 处 理 完 的 RDF 数据 存储 起 来 ， 再 进行 发 布 。 这 两 种 方案 存在 着 明显 的 不 足 ， 即 无 法 很 好 的 处 理 非 结 
构 化 数据 以 及 与 结构 化 数据 之 间 的 关联 。 在 关联 数据 中 ， 非 结构 化 数据 可 以 发 布 成 普通 的 HTTP URL, 181 
于 数据 库 本 身 不 具备 非 结 构 化 数据 的 管理 能 力 ， 因 此 需要 额外 的 手段 来 发 布 非 结构 化 数据 的 内 容 ， 并 维护 它 
们 与 结构 化 信息 之 间 的 关联 。 
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如 图 19 Aras, 
统一 发 布 问题 


采用 PandaDB 的 融合 管理 


引擎， 可 以 解决 关联 数据 发 布 过 程 中 结构 化 、 非 结构 化 数据 的 


rae Pas ae 。 实体 史册 
。 关系 映射 
ma e 
D2R E$ pathH 。 BLOB 属 性 映 忒 
t E m 
GD = | 
a AUN Bw CE 。 结构 化 数据 
2i 非 结构 化 数据 ti 
a) 传统 结构 化 / 非 结 构 化 数据 发 布 b) 融合 数据 发 布 


Fig.19 Changes on ProcessComparison of Linked Publishing Linked Data 


图 19 关联 数据 发 布 方式 与 流程 变化 


本 案例 借鉴 D2RQ 的 映射 机 制 ， 制 定 了 实体 结构 化 信息 和 非 结 构 化 信息 的 映射 规则 : 
将 一 条 实体 映射 成 一 个 RDF Resource， 默 认 HTTP URI 为 http://<baseuri>/<nodeid>; 
实体 的 标签 映射 成 is_a 语句 ; 


(1) 实体 映射 : 
(2) 标签 映射 : 


(3) 关系 映射 : 
(4) 属性 映射 : 


(5) BLOB 值 


http://<baseuri>/<blobid>， 将 根据 元 数据 信息 
通过 在 线 映 射 生成 的 关联 数据 集 效果 如 图 


实体 间 的 关系 映射 成 RDF link， 链 接 的 谓词 采用 关系 的 标签 ; 


每 个 属性 映射 成 一 条 < 主 , 谓 , 宾 > 三 元 组 ， 属 性 名 称 被 映射 成 一 个 RDF 谓词 ; 
映射 : 将 BLOB 值 发 布 成 一 


条 Web 可 访问 的 HTTP URI， 可 以 定制 其 路 径 ， 默 认 路 径 为 


的 发 布 ， 同 时 自动 维 


护 与 实体 之 间 的 关联 。 


动 将 Length 和 ContentType 写 入 HTTP Response 的 头 部 ; 
20 所 示 。 与 传统 的 发 布 方式 相 比 ， 该 方案 支持 非 结 构 化 数据 
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<rdf Description rdf:about="http://zoo.csdb.cn/csdb/resource/entity/12053084"> 


<skos:prefLabel> REA MË </skos:prefLabel> 
<skos:altLabel> Á 24 JE </skos:altLabel> 
<skos:altLabel> 4 xK MÉ </skos:altLabel> 


<bio:origin> El FE 


国 西藏 </bio:origin> 


<bio:parent rdf:resource="http://zoo.csdb.cn/csdb/resource/entity/120530"/> | 
<bio:photo rdf:resource=|'http://z00.csdb.cn/csdb/resource/blob/55439"/> 


| <hrdt: Description> 


44 案例 2: 个 人 相册 管理 


照片 属于 典型 的 非 结 
在 文件 


看 出 ， 这 种 多 样 


Fig.21 


系统 之 外 增加 结构 化 信息 的 标注 信息 ， 如 : 人 物 、 事 件 、 地 点 等 。 
高 级 检索 ， 如 : 查找 所 有 出 现 小 狗 的 照片 ， 则 需要 开发 、 
化 的 需求 需要 借助 于 3 个 独立 的 系统 完成 ， 如 图 21 所 示 。 


http://zoo.csdb.cn/csdb/resource/blob/55439 


content-length: 53920 
content-type: image/jpeg 


Fig.20 Publishing Linked data based on PandaDB 
图 20 基于 PandaDB 实现 关联 数据 的 发 布 
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系统 进 和 


吉 构 化 数据 ， 目 前 通常 采用 文件 


了 管理 。 为 了 支持 扩 


展 信息 的 检索 ， 往 往 需要 
另外 ， 如 果 需 要 针对 照片 内 容 进 行 


Ea 


部 署 AI 程序 ， 通 


文件 高 级 检索 
。 场景 、 目 标 .… 


AR 


文件 基本 检索 
。 文件 名 、 拍 摄 时 间 、 ii 


RIK.. 


ca 


定制 化 AI 程序 
Ee: SIA 
ds 


BRER? 
ATRE Rl 


文件 系统 


inode... 


。 文件 元 数据 、 


J 


过 进程 调 


用 实现 检索 


Diversified queries for albums requires building multiple systems 


的 。 可 以 
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图 21 相册 的 多 样 化 查询 需要 构建 多 个 系统 

本 案例 基于 PandaDB 构建 个 人 相册 管理 原型 系统 ， 该 系统 支持 文件 系统 的 图 片 批量 导入 ， 采 用 智能 属 
图 模型 实现 图 片 的 管理 ， 同 时 提供 了 开放 的 标注 接口 ， 可 以 为 图 片 增加 新 的 属性 。 借 助 于 PandaDB 的 次 
属性 抽取 能 力 ， 原 型 系统 可 支持 针对 图 片 的 高 级 搜索 ， 如 : 查找 所 有 出 现 小 狗 的 照片 ， 查 找 所 有 包含 小 孩 
照片 ， 以 及 查找 所 有 相似 的 照片 ， 如 图 所 示 。 


查询 ”2020 年 包含 小 
狗 的 照片 ” 一 片 检索 模块 


ae ee 


AN 
2 eee ky 
a Ny 
@ —_—~ + 
% \ 
\ 


SRE 


R] 


match (n) where n.photo :> 'dog' and 
n.modified>=date("2020-1-1") return n 


标注 模块 


图 片 内 容 + 元 数据 + 标注 信息 


Fig.22 PandaDB supports diversified query requirements 
图 22 PandaDB 可 满足 多 样 化 查询 需求 


45 案例 3: 学 术 图 谱 实体 消 岐 

学 术 图 谱 泛 指 以 学 术 内 容 为 主体 的 领域 知识 图 谱 ,， AMiner[12] 和 AceKG[13] 是 其 中 的 典型 代表 。 实体 消 岐 
的 目的 是 解决 信息 中 名 称 指向 不 明 及 名 称 歧义 问题 ， 学 术 知 识 图 谱 数 据 中 通常 出 现 学 者 重 名 、 不 同 机 构 的 简 
称 或 缩写 相同 等 情况 ， 因 此 图 谱 创 建 过 程 中 通常 面临 实体 消 岐 问题 。 目 前 大 多 数 实体 消 岐 方法 都 以 聚 类 为 基 
础 ， 文 献 [14][15][16] 使 用 表层 特征 值 计 算 实 体 间 相似 度 ， 但 这 种 方法 不 能 充分 利用 上 下 文 特征 。 因 为 基于 表 
层 特征 的 方法 面临 信息 不 足 的 问题 ,有 学 者 尝试 引入 外 部 信息 ， 如 WikiPedia 中 的 信息 ,将 这 些 知识 资源 作为 
实体 的 扩展 特征 ， 辅 助 提 升 聚 类 准确 性 ， 代 表 工 作 如 [17][18]。 文 献 [19][20] 使 用 图 计算 的 方法 ， 充 分 利用 网 络 
数据 的 结构 信息 ， 但 并 不 具有 很 好 的 普 适 性 。 近 年 来 ， 随 着 深度 学 习 技 术 的 巨大 进步 ， 有 学 者 利用 embedding 
技术 [21] 和 神经 网 络 技术 [22] 这 类 方法 相 比 于 传统 方法 具有 更 好 的 效果 ， 但 准确 性 方面 仍 不 能 满足 人 们 的 预 
期 。 本 案例 基于 PandaDB， 提 出 了 一 种 融合 结构 化 属性 和 非 结 构 化 属性 的 消 歧 方法 。 如 图 23 所 示 ， 某 学 术 图 
谱 中 有 两 个 姓名 分 别 为 Park Bill 和 Tom Green 的 人 物 节 点 以 及 一 个 名 为 Data Vis 的 论文 节点 ,需要 判断 T.Green 
和 Tom Green 是 否 为 同一 实体 ， 从 而 判断 Park Bill 和 Tom Green 之 间 是 否 存在 合作 关系 。 由 于 论文 中 存在 的 
属性 数据 不 足 , 消 歧 很 有 困难 。 基 于 PandaDB 对 非 结构 化 信息 抽取 及 语义 比较 能 力 , 可 以 充分 利用 Tom Green 
的 照片 以 及 论文 作者 照片 列表 ， 从 而 达到 消 歧 目的 。 图 23 下 半 部 分 给 出 了 完成 该 操作 的 CypherPlus 语句 ， 
其 中 <: 操 作 符 表 示 包 含 关 系 ， 只 需要 找到 对 应 的 节点 ， 判 断 n.photo<:p.screenshot 成 立 与 否 ， 即 可 计算 出 二 者 
> 间 是 否 存 在 合作 关系 。 
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:cooperation 


Park Bill 


Y 
Paper: Data Vis 


Tom Green 


photo 
Y 


coAuthor: 


T. Green, P. Lasek 
T 


MATCH(m), (p) Where n.name=‘Park Bill’ and (m)-[:authorOf]->(p) 


WITH m and p 


MATCH(n),(p) WHERE n.photo <: p.screenshot 


CREATE (n)-[:cooperation]-(m) 


Fig.23 Diagram of Entity Disambiguation based on PandaDB 
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和 DB4AI (Database for AI) 两 个 方向 P3]。AI4DB 旨 在 通过 AI 技术 提高 DB 的 效率 和 能 力 ， 如 


直 是 学 术 界 研究 的 热点 内 容 。AI 与 数据 库 的 融合 存在 AI4DB(AI for Database ) 


自动 化 数据 


库 参数 调 优 P4-P9、 基 数 估计 PC 、 索 引 推 荐 PC3、 查 询 优化 P9100 等 。DB4AI， 是 以 数据 库 为 AI 算法 提供 数据 
服务 ， 供 算法 进行 训练 和 学 习 。 例 如 ， 借 助 数据 库 的 统一 SQL 接口 ， 为 用 户 提供 自 定义 的 函数 协助 构建 模 
型 ， 通 过 数据 库 张 量 计算 协助 模型 训练 ， 通 过 持久 化 AI 模型 以 重复 使 用 。 
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ESE 
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JanusGraph 通过 使 用 第 三 方 分 布 式 索 引 库 


= 
Fso 


H 


三 十 多 


多 


模型 ,属性 


的 研究 历史 B9， 
381. CTC te ALB, 
到 2016 年 深 
E 到 如 今 的 端 对 端的 
， 以 及 其 在 准确 性 、 效 率 方 


度 郑 
神经 
巨大 


面 的 


中 的 节点 和 关系 都 可 以 被 
的 整体 结构 。 


48] 等 。Neo4j 是 目前 应 


数据 库 。 


JanusGraph 采用 存储 


民 和 查询 引 


20 


Elasti 


他 的 图 数据 库 还 包括 : Amazon 的 Neptune), 微软 的 Azure 


cSearch、Solr 和 Lucene 实现 检索 功能 。 


CosmosDB651、TigerGraph653、OrientDB03] 等 。 


随 着 大 数据 时 代 的 来 临 ， 海 量 数据 的 存储 与 计算 使 得 单机 服务 已 经 无 法 满足 需求 ， 越 来 越 多 的 任务 需要 


分 布 式 系统 支持 。 保 证 分 布 式 系统 的 可 靠 性 和 一 致 性 至 关 重 要 。 解 决 这 个 问题 的 一 个 著名 算法 是 由 Lamport 提 


出 的 P 


axos 算法 569551。 此 后 为 了 适应 不 同 的 工程 环境 ， 研 究 人 员 在 Paxos 的 基础 上 提出 了 很 多 新 的 算法 59。 


比较 著名 的 有 Multi-Paxos67658、Liskov 等 人 提出 的 VR (viewstamped replication) 算 法 69160、 雅 虎 公 司 设计 的 
ZAB(Zookeeper’s atomic broadcast) YKI, Ongaro 等 人 提出 的 Raft HILO 


6 总 结 与 展望 
本 文 从 结构 化 / 非 结构 化 数据 进行 融合 管理 、 关 联 计 算 和 即席 查询 需求 角度 出 发 ， 分 析 了 目前 数据 融 


理 方面 缺少 统一 表示 、 不 支持 交互 式 查 询 等 难点 。 在 此 基础 上 提出 了 i anes 表示 全 
生 图 模型 ， 并 提出 了 针对 在 线 查 询 和 计算 的 属性 操作 符 与 查询 语法 。 在 第 3 节 ， 本 文 提 出 了 基于 智 
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| we we 


模型 的 分 布 式 数据 融合 管 里 系统 PandaDB， 该 系统 实现 了 结构 化 、 非 结构 化 数据 的 高 效 存储 管 H, 并 提供 了 


灵活 的 AI 算 子 扩展 机 伟 
协 存 机 
术 图 谱 实 体 消 疏 等 多 元 异 构 数据 融合 管理 的 场景 。 


jil 


， 具 备 对 多 元 异 构 数 据 内 在 信息 的 即席 查询 能 力 。 测 试 实验 和 案例 证 明 ，PandaDB 的 
制 和 分 布 式 架构 具备 较 好 的 性 能 加 速效 果 ， 同 时 PandaDB 可 应 用 在 关联 数据 发 布 、 个 人 相册 管理 、 学 


一 


前 PandaDB 还 存在 着 一 些 不 足 ， 如 : 一 方面 ，AIPM 模块 与 系统 相对 独立 部 署 ， 这 种 模式 降低 了 系统 
性 ， 有 利于 扩展 和 维护 ， 但 面 对 大 规模 的 非 结构 化 数据 信息 查询 请 求 时 ， 模 块 间 信 息 传 输 的 开销 较 大 。 


am 


的 耦合 


未 来 应 研究 更 为 合理 的 AI 功能 集成 机 制 ， 结 合 多 元 异 构 数 据 即 席 查 询 的 场景 特性 设计 任务 调度 方法 ， 提 升 系 
统 性 能 。 另 一 方面 ， 从 智能 属性 中 抽取 内 舱 式 属性 的 操作 ， 目 前 还 缺乏 有 效 的 缓 在 和 预测 机 制 ， 造 成 即席 抽 
取 的 过 程 延 时 较 大 。PandaDB 将 进一步 结合 应 用 ， 进 一 步 提 升 系统 的 性 能 和 稳定 性 ， 从 而 提升 多 元 异 构 数据 
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